iT邦幫忙

第 12 屆 iThome 鐵人賽

DAY 6
0
AI & Data

AWS 數據處理與分析實戰系列 第 6

Day 6 Glue Data Catalog 教學 - Part 3

  • 分享至 

  • xImage
  •  

了解 Classifiers 後,要來介紹如何將 Classifiers 與 Crawlers 結合進行資料爬取

Crawlers 的部分會以一個小範例進行說明,首先我們要到 Kaggle 取得範例資料,資料內容為零售業的歷史訂單資料

這次我們先以處理 orders.csv 這個資料為目標,並且可以對他進行查詢
架構如下,資料儲存在 S3 再透過 Data Catalog 對 S3 上的資料進行爬取與解析,解析完成後再透過 Athena 使用 SQL 的查詢語法對資料進行分析

https://ithelp.ithome.com.tw/upload/images/20200920/20129236U76vftwLz8.png

  1. 創建 IAM Role
    1-1. 首先創建 Glue 所使用的 IAM Role,到 IAM 的管理頁面點選 Create role

https://ithelp.ithome.com.tw/upload/images/20200920/20129236sObbki6aa6.png

1-2. 選擇要使用 Role 的服務 Glue

https://ithelp.ithome.com.tw/upload/images/20200920/20129236VbOzNKjnW0.png

1-3. 給予 Role 所需的 Policy,AmazonS3FullAccess、AWSGlueServiceRole,除了 Glue 本身的權限之外,因為資料是儲存在 S3 當中所以還要給予 S3 的權限,讓 Glue 可以存取所需的資料

https://ithelp.ithome.com.tw/upload/images/20200920/20129236sBG0JxoLwx.png
https://ithelp.ithome.com.tw/upload/images/20200920/201292368ML6FUqyEG.png

1-4. Tag 的部分可以先跳過

https://ithelp.ithome.com.tw/upload/images/20200920/20129236Y8Fxf9kCK9.png

1-5. 最後幫 Role 取一個好名子就完成了

https://ithelp.ithome.com.tw/upload/images/20200920/20129236VRds38lBbQ.png

  1. 創建 S3
    2-1. 在創建 S3 時須注意所指定的 Region 要與 Glue 的 Region 相同,這樣 Glue 才能正常讀取 S3 中的資料

https://ithelp.ithome.com.tw/upload/images/20200920/20129236ryiRCB6mSA.png

2-2. 請依照以下階層創建資料夾並放入剛剛從 Kaggle 下載的 orders.csv

SampleData
  └─ order
      └─ order.csv

https://ithelp.ithome.com.tw/upload/images/20200920/20129236aDtbPAWgvs.png

  1. 創建所需的 Classifiers

https://ithelp.ithome.com.tw/upload/images/20200920/20129236fbzsesABAv.png

order.csv 是 CSV 檔,而他的主要分隔符號是使用逗號,次要分而符號沒有使用到但我們還是先選則雙引號做為次要分隔符號,欄位名稱的部分因為資料中已有,所以 Column headings 可以選擇 Detect headings 或是 Has headings,其他部分則是使用默認設定即可

https://ithelp.ithome.com.tw/upload/images/20200920/20129236Dl2fFZn5Z5.png
https://ithelp.ithome.com.tw/upload/images/20200920/20129236BvxELGyGsN.png


上一篇
Day 5 Glue Data Catalog 教學 - Part 2
下一篇
Day 7 Glue Data Catelog 教學 - Part 4
系列文
AWS 數據處理與分析實戰30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言